“Nem sempre conseguimos enxergar padrões com os olhos. Às vezes, precisamos de matemática para revelá-los.”
Imagine tentar entender as preferências de centenas de pessoas, ou visualizar a semelhança entre dezenas de produtos. Como representar isso de forma intuitiva?
Exemplo prático
Uma empresa de telefonia realizou uma pesquisa para avaliar como os clientes percebiam diferentes marcas concorrentes no mercado. Cada entrevistado avaliou o grau de similaridade entre as marcas, sem indicar explicitamente o motivo. Com esses dados, aplicou-se MDS para construir um mapa perceptual.
Claro e Vivo estão próximas, sugerindo que os consumidores as percebem como similares.
TIM e Oi também aparecem próximas, formando um outro grupo perceptual.
Nextel está mais distante das demais, indicando uma percepção diferenciada.
O que é MDS?
Escalonamento Multidimensional (MDS) é uma técnica exploratória de redução de dimensionalidade baseada em distâncias ou dissimilaridades.
Objetivo: encontrar uma representação espacial dos objetos em k dimensões, preservando as distâncias originais tanto quanto possível.
🤔 Diferente do PCA, que usa variância, o MDS parte de uma matriz de distâncias.
MDS pode ser utilizado com ou sem os dados originais, desde que se conheça a matriz de distância.
Formulação matemática
Dada uma matriz de distâncias \(\Delta = (\delta_{ij})_{n \times n}\), o objetivo do escalonamento multidimensional é encontrar pontos \(P_1, P_2, \cdots, P_n\), \(k\)-dimensionais tais que, se \(d_{ij}\) denota a distância euclidiana entre \(P_i\) e \(P_j\), então \(D = (d_{ij})\) é “próxima” a \(\Delta\) em algum sentido.
Métodos métricos: os pontos \(P\) são obtidos de tal forma que \(D \approx \Delta\)
Assume distâncias reais, preservando as magnitudes.
Métodos não métricos: baseados na ordenação das \(\displaystyle{\frac{n(n-1)}{2}}\) distâncias
Assume apenas a ordem das distâncias.
Formulação matemática: MDS métrico
Considere a matriz \(\Delta = (\delta_{ij})\) das distâncias originais entre os \(n\) indivíduos.
Nosso objetivo é encontrar \(n\) pontos \(k\)-dimensionais de tal forma que a distância \(d_{ij}\) entre os indivíduos \(i\) e \(j\) em \(k\) dimensões seja aproximadamente igual ao valor de \(\delta_{ij}\) em \(\Delta\).
Geralmente, temos \(k=2\) ou \(k=3\).
Formulação matemática: MDS métrico
Para encontrar os pontos \(P_1, P_2, \cdots, P_n\):
Encontrar uma matriz \(A_n = (a_{ij})\), onde \(a_{ij} = -\displaystyle{\frac{1}{2}} \delta_{ij}^2\), sendo \(\delta_{ij}\) o \(ij\)-ésimo elemento de \(\Delta\)
Construir a matriz \(B = (b_{ij})\), onde \(b_{ij} = a_{ij} - \bar{a}_{i\cdot} - \bar{a}_{\cdot j} + \bar{a}_{\cdot \cdot}\), em que
Uma vez que \(B\) é simétrica, podemos encontrar a decomposição espectral da matriz \(B\):
\[B = O \Lambda O^{t}\]
em que \(O\) é a matriz de autovetores normalizados e \(\Lambda\) é a matriz diagonal dos autovalores de \(B\).
Formulação matemática: MDS métrico
Observação: Se \(B\) é positiva semidefinida de posto \(q\), então existem \(q\) autovalores positivos e os \((n-q)\) autovalores iguais a zero. Sejam \(\Lambda_{1} = \text{diag}(\lambda_{1},\lambda_{2}, \cdots, \lambda_{q})\) a matriz diagonal com os \(q\) autovalores positivos e \(O_{1}=(\mathbf{e}_{1},\mathbf{e}_{2}, \cdots, \mathbf{e}_{q})\) a matriz com os correspondente autovetores normalizados.
As linhas \(\mathbf{Z}_{1}^{t}, \mathbf{Z}_{2}^{t}, \cdots, \mathbf{Z}_{n}^{t}\) são os pontos cuja distância \(d_{ij} = (\mathbf{Z}_{i}-\mathbf{Z}_{j})^{t}(\mathbf{Z}_{i}-\mathbf{Z}_{j})\) corresponde às distâncias \(\delta_{ij}\) da matriz de distâncias \(\Delta\).
Se usarmos os \(q\) autovalores positivos para construir a matriz \(\Lambda_{1}\), teremos \(d_{ij} = \delta_{ij}\). A ideia é utilizarmos um número \(k < q\) (geralmente \(k = 2\) ou \(k = 3\)) de autovalores e autovetores correspondentes para encontrarmos \(n\) pontos cujas distâncias \(d_{ij}\) sejam aproximadamente iguais às correspondentes \(\delta_{ij}\).
Se \(B\) não é positiva semidefinida, porém os \(k\) primeiros autovalores são positivos, então estes podem ser usados para construção das matrizes \(O_{1}\) e \(\Lambda_{1}\).
Exemplo 01: Distâncias entre capitais brasileiras
Os dados referem-se à matriz de distâncias empíricas entre algumas capitais brasileiras. O objetivo é encontrar uma representação gráfica dessas capitais baseada apenas nessas distâncias.
Exemplo 01: Distâncias entre capitais brasileiras
D =read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/distancias_capitais.dat", header=T)D
plot(mds$points, type ="n", main ="MDS - Capitais")text(mds$points, labels =rownames(D), cex =0.7)
Exemplo 01: Distâncias entre capitais brasileiras
# Refletindo a soluçãomds_refletida = mds$pointsmds_refletida[, 1] =-mds_refletida[, 1]mds_refletida[, 2] =-mds_refletida[, 2]plot(mds_refletida, type ="n", main ="MDS - Capitais")text(mds_refletida, labels =rownames(D), cex =0.7)
Exemplo 02: Percepção de Marcas (Pesquisa de Marketing)
Suponha que uma empresa de pesquisa de mercado realizou entrevistas com consumidores, solicitando que avaliassem o quão similares eles acham diferentes marcas de refrigerantes. O resultado foi uma matriz de dissimilaridades baseada na percepção subjetiva dos participantes.
O valor mínimo de \(S^2\) para uma dada dimensão \(k\) é chamado de STRESS (STandard REsiduals Sum of Squares). O STRESS mede o quanto da variância das dissimilaridades NÃO é explicada pelas \(k\) coordenadas principais.
Formulação matemática: MDS Não-métrico
Passos para encontrar o STRESS
Ranquear as \(m=\frac{n(n-1)}{2}\) distâncias ou dissimilaridades \(\delta_{ij}\).
Escolha um valor de \(k\) e a configuração inicial dos pontos em \(k\) dimensões. A escolha de \(k\) pode seguir a seguinte regra prática:
Dimensões
Indivíduos
k = 1
pelo menos 5
k = 2
pelo menos 9
k = 3
pelo menos 13
A configuração inicial dos pontos nas \(k\) dimensões pode ser tomada como a solução do MDS métrico.
Formulação matemática: MDS Não-métrico
Para a configuração inicial dos pontos, encontre a distância \(\delta_{ij}\) entre eles. Encontre os valores de \(d_{ij}\) que minimizem a função \(S^2(Z)\).
Escolha a nova configuração de pontos cujas distâncias \(d_{ij}\) minimizam \(S^{2}\).
Encontre novos valores de \(d_{ij}\) para os valores de \(\delta_{ij}\) encontrados no passo d. Encontre os novos valores da função STRESS.
Repita os passos d e e até o STRESS convergir para um valor mínimo sobre todas as possíveis \(k\)-dimensionais configurações dos pontos.
Formulação matemática: MDS Não-métrico
Regra prática: Como avaliar os valores de STRESS?
Stress
Ajuste
maior que 0,20
Ruim
entre 0,10 e 0,20
Regular
entre 0,05 e 0,10
Bom
menor que 0,05
Excelente
O gráfico Shepard
Compara as distâncias ajustadas pelo modelo e as disparidades originais, permitindo uma análise de diagnóstico da qualidade do ajuste do modelo.
É um gráfico de dispersão, no qual se espera como resultado que os pontos não se afastem muito de uma reta, indicando que cada dissimilaridade original, dada pela disparidade, é bem representada pela distância ajustada pelo modelo.
Exemplo 03: Posicionamento de Marcas de Cerveja
Os dados referem-se à uma pesquisa sobre o posicionamento de algumas marcas nacionais de cerveja comercializadas nos restaurantes, bares e mercados brasileiros.
Para o experimento, foram selecionadas 10 marcas dentre as principais cervejas favricadas e comercializadas no Brasil.
20 apreciadores classificaram as marcas aos pares, atribuindo o escore 0 (caso pertençam a um mesmo grupo) ou o escore 1 (caso contrário)
Os escores foram agrupados. Quanto menor o escore total, mais similares são as marcas.